Data Mining:
Es la extracción de patrones o información interesante, es decir, no trivial, implícita, previamente desconocida y potencialmente útil, de grandes bases de datos (como data warehouses). Su resultado es del que se puede obtener el conocimiento de KDD.
Entre sus funcionalidades tenemos:
- Descripción de conceptos: Caracterizar y discriminar a los datos a través de sus características (generalizar, resumir, contrastar).
- Asociación: Establecer una relación de correlación y causalidad.
- Clasificación y predicción: Encontrar modelos o funciones que describan y distingan clases para futuras predicciones. Estos se pueden presentar de varias maneras (árboles de clasificación, reglas, redes neuronales) y nos permiten predecir valores faltantes.
- Cluster analisis: Agrupar los datos en clases maximizando su similitud y minimizándola entre clases.
- Análisis de outliers: Detectar y comprender aquellos datos que no respetan el comportamiento general.
- Análisis de tendencias y evolución: Comprender la regresión, patrones secuenciales y similitudes a través del tiempo.
Para ello se tiene una serie de técnicas que pueden ser:
- Supervisadas: Se basan en un conjunto de entrenamiento con sus respuestas anotadas (redes neuronales, árboles de decisión, regresión).
- No supervisadas: Deben inferir una función para describir una estructura oculta a partir de datos no etiquetados (clustering, reglas de asociación).

Redes neuronales artificiales (RNA):
Definición: Son sistemas capaces de aprender de sus propios errores y adaptarse a condiciones variantes y ruido para predecir un estado futuro al asociar entradas a respuestas. Se usan para resolver problemas a gran escala (asociación, evaluación y reconocimiento de patrones) o difíciles de calcular (aproximadamente con respuestas rápidas y buenas).
Características:
- Aunque no se propagan siguiendo una secuencia predefinida de instrucciones, sólo resuelven problemas resolvibles por el cerebro humano.
- Se procesan paralelamente a través de un gran número de elementos altamente interconectados entre sí.
- Pueden mejorar su rendimiento al combinarse con otras herramientas (lógica difusa, algoritmos genéticos, sistemas expertos, estadísticas, transformada de Fourier, wavelets).
- No son útiles para cálculos precisos, procesamiento serie ni reconocer algo que no siga algún tipo de patrón.
- Se basan en modelos simplificados de neuronas reales (modelan el axón, las dendritas, la sinápsis y el cuerpo de la célula).
Entrenamiento:
El entrenamiento de una RNA sigue una regla delta generalizada consistente en un proceso con todos los datos de entrenamiento que puede repetirse varias veces:
1) Calcular la diferencia entre la salida resultante y la esperada.
2) Corregir los valores de las entradas para achicar las diferencias en base a una constante delta muy pequeña.
De esa forma se busca que la diferencia se vaya minimizando de a poco, ya que de hacerlo de golpe se puede modificar demasiado lo aprendido anteriormente.
Tipos:
Entre los tipos de RNAs más utilizados tenemos:
- Perceptrón multicapa
- Red de Hopfield (mapas asociativos)
- Red de Konohen (SOM, mapas auto-organizativos): Se basan en evidencias de cómo las neuronas del cerebro organizan su información, y en ellas la actualización delta sólo se realiza en la neurona cuyos pesos tengan la distancia mínimo con el valor a entrenar, afectando en menor medida a sus vecinas.

Árboles de decisión:
Definición: Son modelos en forma de árbol que se utilizan para clasificar una entrada desconocida según sus atributos. Se componen de nodos internos con preguntas condicionales y entendibles sobre ellos, y hojas con su etiqueta o clase a predecir.
Construcción:
Para construirlo se parte de todos los ejemplos de la raíz del árbol y se los va dividiendo recursivamente a través de los atributos elegidos. Seguidamente, se podan las ramas con outliers o ruido (prunning).
Considerando que el modelo se construye en base a clases existentes de entrenamiento, de este se obtienen las reglas de clasificación. De allí, para estimar su precisión debe aplicarlo sobre un conjunto de prueba y comparar sus resultados con los reales, tomando el porcentaje correctamente clasificado.
Prunning:
En el prunning entra en juego el overfitting basado en adaptar el árbol demasiado al conjunto de entrenamiento y puede mediarse a través de:
- Preprunning: Interrumpir la construcción de un nuevo nodo si la mejora está por debajo de cierto umbral (difícil de definir).
- Postprunning: Quitar ramas de un árbol ya construido (usando otro conjunto de entrenamiento, por ejemplo).
Outliers:
Dentro del conjunto de datos analizado los outliers siguen un comportamiento diferente al resto en una o más variables. Si bien se los puede usar para detectar anormalidades, generalmente pueden ensuciar o influir en nuestros resultados y conviene descartarlos. Esta variación puede provenir de:
- La fuente: Surge de las observaciones y se la considera un comportamiento natural en relación a cierta variable de estudio.
- El medio: Surge del mal uso de la técnica para medir una variable o cuando no exista una valoración exacta de ella. Comprende los redondeos forzosos en variables continuas.
- El experimentador: Se clasifican en:
-- Error de planificación: Cuando no se delimita correctamente la población o se realizan observaciones de otra.
-- Error de realización: Se valora incorrectamente a los elementos (transcripciones erróneas, falsas lecturas con los instrumentos de medición, etc.).
De allí se dice que una observación atípica surge de primer tipo de variación, mientras que una errónea de los otros dos. Ambas pueden ser outliers y es conveniente estudiarlas antes de eliminarlas.

Regresión lineal:
Definición: Es una técnica estadística que nos permite modelar e investigar la relación entre dos o más variables de un esquema. De allí, si se manejan sólo dos variables independientes es simple y si no, múltiple.
Requisitos para crear el modelo:
- La relación entre las variables debe ser lineal.
- Los errores deben ser independientes entre sí.
- La varianza de los errores deben ser constante y su esperanza matemática, nula.
- El error total debe ser la suma de cada uno.
Clasificación bayesiana:
La regresión logística se aplica cuando tenemos una variable dependiente dicotómica o politómica y no numérica. De allí, asociamos la variable con su probabilidad de ocurrencia e intentamos probar una hipótesis a través de la clasificación bayesiana.
Esta nos permite aproximar las probabilidades de la hipótesis, verificar cómo sube o baja con cada ejemplo de entrenamiento y realizar múltiples predicciones. Su aplicación parte del teorema de Bayes de probabilidad condicional, sólo que en su versión "naive" que asume que los atributos son independientes para reducir el costo de cálculo.
Entonces, las probabilidades "a-posteriori" se calculan en base a los atributos según si son categóricos o no continuos. Podemos superar la hipótesis de independencia usando redes bayesianas o árboles de decisión.

Clustering:
Definición: Técnica basada en agrupar objetos dentro de colecciones llamadas clusters, de manera de que en cada uno, sus objetos sean similares entre sí y diferentes de los que están por fuera de ellos. Se usan para tener una idea de la distribución de los datos como paso previo a la aplicación de otros algoritmos.
Calidad:
La calidad de un cluster viene dada por la función de similitud utilizada por el método (que depende del tipo de datos) y la manera en que está implementada. Entre las posibles funciones de distancia tenemos la euclídea, Manhattan, Minkowski (generalización de la anterior), etc., cada cual aplicable según el problema a resolver.
El clustering puede tener agrupamiento:
- Jerárquico: Puede hacerse a través de métodos aglomerativos o divisivos. No tiene número de clusters definido, no actúa bien cuando los datos tienen alto nivel de error y puede ser lento.
- No jerárquico: Rápido y fiable pero requiere especificar el número de clusters y la semilla inicial (arbitrarios).

Reglas de asociación:
Definición: Se basa en hallar automáticamente patrones comunes, asociaciones, correlaciones o estructuras de causalidad entre los ítems u objetos en bases de datos transaccionales, relacionales y otros repositorios de información. Para eso forma reglas del estilo IF condición THEN resultado.
Reglas:
Las reglas pueden ser:
- Úitles o aplicables: Si contienen una buena cantidad de información y son traducibles a acciones de negocio.
- Triviales: Si ya se conocen por su frecuente ocurrencia.
- Inexplicables: Si se corresponden con curiosidades arbitrarias.
Su calidad se puede medir a través de su:
- Soporte: Proporción de transacciones en la que se encuentra.
- Confianza: Proporción de transacciones que la contienen respecto de la proporción que contienen a la cláusula condicional.
- Mejora: Capcidad predictiva de la regla.
Pueden además ser booleanas o cuantitativas, tener una o varias dimensiones y manejar elementos simples o jerárquicos.